Inciso 3

Row

Estadísticas descriptivas

Rango Intecuratil

Rango

Estadísticas de forma

Row

Interpretación estadísticas descriptivas

AvgSessionLength (Duración promedio de la sesión)
La duración de las sesiones de los usuarios tiene una media y mediana de 33.1 minutos, con una desviación estándar de 0.99, lo que indica que las sesiones son relativamente homogéneas. El valor mínimo registrado es de 29.5 minutos y el máximo de 36.1 minutos, con un rango total de 6.61 minutos y un rango intercuartílico (IQR) de 1.37 minutos, lo que muestra baja dispersión en los datos. La asimetría de -0.0321 sugiere que la distribución es prácticamente simétrica, sin una inclinación significativa hacia valores altos o bajos. La curtosis de 3.00 indica que la forma de la distribución es muy similar a una normal, con una dispersión de datos dentro de los rangos esperados.

Time on App (Tiempo en la aplicación)
El tiempo que los usuarios pasan en la aplicación tiene una media de 12.1 minutos y una mediana de 12.0 minutos, con una desviación estándar de 0.99, lo que indica que la variabilidad en el tiempo de uso es baja. El valor mínimo registrado es de 8.51 minutos y el máximo de 15.1 minutos, con un rango total de 6.62 minutos y un rango intercuartílico (IQR) de 1.37 minutos, mostrando que la mayoría de los usuarios tienen tiempos de uso muy similares. La asimetría de -0.0889 sugiere una ligera inclinación hacia valores más bajos, aunque no de manera significativa. La curtosis de 3.11 indica que la distribución es ligeramente más concentrada en la media en comparación con una distribución normal, lo que implica que los tiempos de uso están menos dispersos.

Time on Website (Tiempo en el sitio web)
El tiempo de navegación en el sitio web tiene una media y mediana de 37.1 minutos, con una desviación estándar de 1.01, lo que sugiere que los usuarios pasan un tiempo relativamente estable en la plataforma. El tiempo mínimo registrado es de 33.9 minutos y el máximo de 40.0 minutos, con un rango total de 6.09 minutos y un rango intercuartílico (IQR) de 1.37 minutos, lo que indica que el 50% de los usuarios pasan entre 36.3 y 37.7 minutos en la web. La asimetría de 0.0121 muestra que la distribución es prácticamente simétrica, sin sesgos hacia valores altos o bajos. La curtosis de 2.89 indica que la distribución es ligeramente más plana que una normal, sugiriendo una menor concentración de valores en la media y una dispersión algo mayor.

Length of Membership (Duración de la membresía)
El tiempo que los clientes han sido miembros de la plataforma tiene una media de 3.53 años y una mediana de 3.53 años, con una desviación estándar de 0.99, lo que indica que la mayoría de los clientes tienen tiempos de membresía similares. El valor mínimo registrado es de 0.27 años y el máximo de 6.92 años, con un rango total de 6.65 años y un rango intercuartílico (IQR) de 1.20 años, lo que significa que el 50% de los clientes tienen entre 2.93 y 4.13 años de membresía. La asimetría de -0.106 sugiere una leve inclinación hacia clientes con más años en la plataforma, mientras que la curtosis de 3.33 indica una ligera mayor concentración en la media, con pocos valores extremos.

Yearly Amount Spent (Cantidad anual gastada)
El gasto anual de los clientes presenta una media de 499.3 dólares y una mediana de 499.0 dólares, con una desviación estándar de 79.3, lo que indica una mayor variabilidad en comparación con las otras variables. El gasto mínimo registrado es de 257.0 dólares y el máximo de 766.0 dólares, con un rango total de 508.8 dólares y un rango intercuartílico (IQR) de 104.3 dólares, mostrando que el 50% de los clientes gastan entre 445.0 y 549.0 dólares al año. La asimetría de 0.0347 indica que la distribución es casi perfectamente simétrica, mientras que la curtosis de 3.45 sugiere la presencia de algunos valores extremos, lo que podría representar clientes con patrones de gasto significativamente más altos que el promedio.

Inciso 4

Row

Gráficos univariados

Gráficos bivariados con “Yearly Amount Spent”

Row

Interpretación gráficos univariados

AvgSessionLength (Minutos promedio de la sesión de asesoría): El atributo tiene una distribución aparentemente simétrica con un ligero peak central, lo que indicaría que posiblemente tenga una distribución cercana a la norma. En cuanto a los valores están aproximadamente entre 30 y 36 minutos, lo que demuestra que existe poca variabilidad de los datos, la mayoría de los clientes tienen sesiones de entre 33 y 34 minutos de asesoría, lo que muestra que este proceso al parecer está estandarizado.

TimeOnApp (Minutos totales en la app): En este caso se ve una distribución simétrica, posiblemente con una distribución normal, con valores entre 8 y 15 minutos aproximadamente. Se observa que los usuarios de la app pasan en promedio entre 11 y 13 minutos en la aplicación. El rango de los datos en este caso es pequeño, lo que indica que el tiempo en la app es consistente entre los clientes, sin mayor variación.

TimeOnWebsite (Minutos totales en el sitio web): La distribución al igaul que los atributos anteriores es simétrica, posiblemente normal, con un ligero sesgo positivo (cola derecha más larga). Los minutos totales en el sitio web van entre los 34 y 40 minutos, destacando que la mayoría de los usuariospasan entre 36 y 38 minutos en la web. Se aprecia una mayor dispersión en comparación con el tiempo en la app, lo que podría indicar que algunos usuarios exploran más el sitio web que otros, podria deberse a que la app es complementaria y funciona más como consulta, mientras que la web está enfocada en un uso más intensivo con posiblemnete más opciones, pero es solo una suposición.

LengthOfMembership (Años de membresía en la tienda): Se puede apreciar una distribución simétrica con una ligera concentración central, en la que el rango de años de membresía en la tienda es de 0 a 6 años con una mayoría clara de clientes con una antiguedad de 3 a 4 años como miembros. Esto podria sugerir una alta retensión después de los primeros años de membresía.

YearlyAmountSpent (Monto anual de compras en dólares): En cuanto a la distribución es simétrica, posiblemente normal, con un rango de valores entre 300 y 800 dólares. La mayoría de los clientes gastan entre 400 y 600 dólares al año en compras, no se ve una diferenciación entre la app y la web pero habría sido interesante analizarlo. Se aprecia una variabilidad moderada, lo que sugiere diferencias en los hábitos de consumo entre clientes.

Interpretación gráficos bivariados

AvgSessionLength vs Yearly Amount Spent (Gráfico Azul): Existe una leve correlación positiva, aunque no muy fuerte, entre la longitud promedio de la sesión y el monto anual de compras. Se parecia dispersión en los datos, lo que sugiere que otros factores además de la duración promedio de la sesión pueden estar influyendo en los gastos anuales. Es grafico sugiere que los clientes que pasan más tiempo promedio en sesiones no necesariamente gastan significativamente más al año.

TimeOnApp vs Yearly Amount Spent (Gráfico Rojo): Existe una correlación moderadamente fuerte y positiva entre el tiempo total en la app y el monto anual de compras. Se aprecia un patrón ascendente más claro en comparación con las otras variables, esto sugiere que a medida que los clientes pasan más tiempo en la app, tienden a gastar más al año, el tiempo en la app parece ser un factor importante que afecta el gasto anual, esto podría ser una oportunidad para optimizar la experiencia en la app y fomentar más interacción para incrementar las compras.

TimeOnWebsite vs Yearly Amount Spent (Gráfico Verde): No se observa una correlación clara entre el tiempo total en el sitio web y el monto anual de compras. Los puntos están dispersos y no muestran un patrón evidente, po lo que sugiere que el tiempo en el sitio web no influye significativamente en el gasto anual de los clientes. Una posible mejora de la efectividad del sitio web (como su diseño o facilidad para realizar compras) podría ser una oportunidad, ya que el tiempo en el sitio web no parece ser un factor determinante para las compras.

LengthOfMembership vs Yearly Amount Spent (Gráfico Morado): Existe una relación positiva clara entre los años de membresía y el monto anual de compras, los clientes con más años de membresía tienden a gastar más, como lo muestra la tendencia ascendente de los datos, la relación es fuerte y consistente, lo que indica lealtad de los clientes a largo plazo, por lo tanto, los clientes más antiguos son los que más gastan. Esto resalta la importancia de estrategias de retención, como recompensas para miembros antiguos o incentivos para que los nuevos clientes permanezcan más tiempo.

Inciso 5

Row

Gráfico de agrupación de “AvgSessionGroup”

Descripción de “AvgSessionGroup”

Row

Interpretación estadísticas descriptivas y gráfico de “AvgSessionGroup”

Grafico de frecuencia
El eje x representa los 4 grupos creados a partir de la variable AvgSessionLength, los rangos son:

  • [29-32) = primer rango.
  • [32-33) = segundo rango.
  • [33-34) = tercer rango.
  • [34-36.2] = cuarto rango.

El eje y muestra la cantidad de observaciones en cada grupo.

Observaciones
El rango [33-34) tiene la mayor cantidad de observaciones (179), seguido por el rango [32-33) (167), el rango [34-36.2] tiene menos observaciones (85), mientras que el ultimo [29-32) tiene la menor cantidad (69).

Se observa que el gasto promedio anual aumenta a medida que se incrementa el rango del grupo, el primer rango tiene la media más baja: 452.74 dólares y el ultimo rango tiene la media más alta de 545.39 dólares. Esto sugiere que los clientes con sesiones promedio más largas tienden a gastar más anualmente. El comportamiento de la mediana es consistente con la media, la cercanía entre ellas en cada grupo indica distribuciones simétricas dentro de cada categoría.

En cuanto a la dispersión de los datos es relativamente similar entre los grupos, con valores entre 71.10 y 82.07 dólares, lo que sugiere que la variabilidad del gasto dentro de cada grupo es moderada.

El segundo y tercer rango concentran la mayoría de los clientes, lo que implica que la duración promedio de las sesiones de la mayoría de los clientes está entre 32 y 34 minutos. Mientras que los rangos extremos tienen menos clientes, lo que podría ser una oportunidad para analizar si hay factores que impactan la duración promedio de las sesiones.

Las sesiones más largas podrían indicar clientes más comprometidos o interesados en los servicios, lo que se traduce en mayores compras, también podrían reflejar interacciones más significativas, fomentando mayores gastos.

En base a todo lo anterior se podrían diseñar estrategias para aumentar la duración promedio de las sesiones, como promociones, incentivos o mejores herramientas de asesoramiento, Identificar qué factores influyen en las sesiones más largas (por ejemplo, características del cliente, tipo de producto o servicio). Tambien se puede considerar generar estrategias por grupos (cada rango)

Inciso 6

Row

Boxplot de la variable “Yearly Amount Spentr” por categoría

Interpretación del Boxplot de la variable “Yearly Amount Spentr”

El gráfico de boxplot nos muestra la distribución de los datos en cuartiles. En el eje X tenemos los rangos de tiempo promedio que los clientes pasaron en la tienda en línea y en el eje Y, el monto que gastaron anualmente en la tienda.

En el gráfico se observa una tendencia que indica que los clientes que permanecen mayor tiempo promedio en la tienda en línea durante sus sesiones tienden a gastar más anualmente que aquellos que permanecen menor tiempo en promedio. Siendo quienes permanecen entre 34 y 36.2 minutos, el grupo con mayor gasto anual y quienes permanecen entre 29 y 23 minutos en la sesión, el grupo con el menor gasto.

A medida que aumenta el tiempo promedio que los usuarios permanecen en línea, es decir, grupos [33-34] y [34 -36.2], la dispersión del gasto anual también lo hace. Lo que podría indicar que entre los clientes que pasaron más tiempo en línea hay tanto grandes compradores como algunos con gasto moderado, mientras que en los grupos de usuarios que permanecen menos tiempo en la sesión, el gasto está más concentrado.

Se observan también valores atípicos en todos los grupos, es decir clientes con un gasto significativamente distinto al grupo al que pertenecen. Se destaca el grupo de 34 a 36.2 minutos, en donde hay clientes que gastaron notablemente más que el promedio.

El tiempo promedio que pasan los usuarios durante la sesión parece correlacionarse positivamente con el gasto anual de los clientes, lo que sugiere que estrategias para aumentar el tiempo que los clientes pasan en la tienda, podría aumentar también los ingresos recibidos. Por otro lado, también seria conveniente analizar a los clientes que pasan menos tiempo en la tienda en línea y que gastan menos, implementando estrategias que mejoren su experiencia y los incentiven a comprar más.

Inciso 7

Row

Matriz de las correlaciones

Gráficos bivariados con “Yearly Amount Spent”

Row

Matriz de correlaciones

La matriz de correlaciones indica la relación entre las diferentes variables. Si analizamos la variable “YearAmountSpent” respecto a las demás variables, tenemos que LengthofMembership (duración de la membresia), destaca por tener una fuerte correlación con el gasto anual (0.809). Lo que indicaría que clientes que han sido miembros por mas tiempo, tienden a gastar más anualmente.

En el caso de la variable “TimeonApp”, tenemos una correlación moderada en entre el tiempo promedio en la aplicación y el gasto anual, con un valor de 0.499. Esto sugiere que los clientes que utilizan más la aplicación tienden a gastar más. Para la variable “AvgSessionLenght”, se observa una correlación baja o moderada entre la duración promedio de las sesiones y el gasto anual (0.355). Lo que estaría indicando que a un mayor tiempo en las sesiones, podría estar relacionado con mayor cantidad anual gastada.

Por otro lado, en el caso de las variables que presentan la corrleación más baja (casi nula) y negativa, tenemos a “TimeonWebsite”, con solo -0.003.

Inciso 8

Column

Regresión lineal


Call:
lm(formula = YearlyAmountSpent ~ AvgSessionLength + TimeonApp + 
    TimeonWebsite + LengthofMembership, data = ecommerce)

Residuals:
     Min       1Q   Median       3Q      Max 
-30.4059  -6.2191  -0.1364   6.6048  30.3085 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)        -1051.5943    22.9925 -45.736   <2e-16 ***
AvgSessionLength      25.7343     0.4510  57.057   <2e-16 ***
TimeonApp             38.7092     0.4510  85.828   <2e-16 ***
TimeonWebsite          0.4367     0.4441   0.983    0.326    
LengthofMembership    61.5773     0.4483 137.346   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.973 on 495 degrees of freedom
Multiple R-squared:  0.9843,    Adjusted R-squared:  0.9842 
F-statistic:  7766 on 4 and 495 DF,  p-value: < 2.2e-16

Supuestos

  AvgSessionLength          TimeonApp      TimeonWebsite LengthofMembership 
          1.005422           1.008684           1.010275           1.006949 

    Asymptotic one-sample Kolmogorov-Smirnov test

data:  residuos
D = 0.025562, p-value = 0.8995
alternative hypothesis: two-sided

    studentized Breusch-Pagan test

data:  modelo
BP = 5.9772, df = 4, p-value = 0.2009

Column

Estimación de MCO

          [,1]      [,2]       [,3]      [,4]      [,5]
[1,]   500.000  16526.60   6026.244  18530.22  1766.731
[2,] 16526.597 546748.41 199172.906 612465.53 58425.913
[3,]  6026.244 199172.91  73124.477 223376.59 21307.949
[4,] 18530.223 612465.53 223376.588 687247.83 65451.855
[5,]  1766.731  58425.91  21307.949  65451.85  6740.954
             [,1]          [,2]          [,3]          [,4]          [,5]
[1,]  5.314967384 -7.006605e-02 -2.003024e-02 -7.379595e-02 -5.868361e-03
[2,] -0.070066052  2.045179e-03  5.532897e-05  6.010180e-05 -1.211012e-04
[3,] -0.020030239  5.532897e-05  2.045001e-03 -1.671937e-04 -7.065036e-05
[4,] -0.073795949  6.010180e-05 -1.671937e-04  1.982787e-03  9.665424e-05
[5,] -0.005868361 -1.211012e-04 -7.065036e-05  9.665424e-05  2.020853e-03
          [,1]
[1,]  249657.0
[2,] 8265911.0
[3,] 3028636.3
[4,] 9252294.7
[5,]  914152.3
                      Coefficients
Intercept            -1051.5942553
Avg.Session.Length      25.7342711
Time.on.App             38.7091538
Time.on.Website          0.4367388
Length.of.Membership    61.5773238

Inciso 8B

Row

Modelo de regresión lineal

Análisis de Colinealidad

Análisis de Normalidad

Row

Análisis de Homocedasticidad

5

6

Row

Interpretación estadísticas descriptivas

Evaluación de los supuestos del modelo

1.⁠ ⁠Multicolinealidad (VIF): Todos los valores de VIF son cercanos a 1, lo que indica ausencia de multicolinealidad. Esto significa que las variables predictoras son independientes entre sí.

2.⁠ ⁠Normalidad de los residuos: Prueba de Kolmogorov-Smirnov con p-value de 0.8995 (mayor a 0.005) indica que los residuos siguen una distribución normal

3.⁠ ⁠Homocedasticidad: Prueba de Breusch-Pagan con un p-value de 0.2009 (mayor a 0.05), esto quiere decir que los errores tienen variana constante, cumpliendo el supuesto de homocedasticidad

4.⁠ ⁠Linealidad y ajuste del modelo: Los gráficos de residuos vs. valores ajustados no muestran patrones evidentes, lo que indica que la relación entre las variables es lineal.

Interpretación de las variables predictoras

AvgSessionLength contribuye positivamente al gasto anual, pero su impacto es menor en comparación con otras variables como TimeonApp y LengthofMembership. TimeonApp tiene el mayor impacto por minuto adicional, sugiriendo que los clientes más comprometidos con la app tienden a gastar más y LengthofMembership tiene una fuerte influencia positiva. Los clientes más antiguos gastan significativamente más, en cambio TimeonWebsite posee una relación muy débil con los gastos anuales con un 0.44, esto sugiere que el tiempo en el sitio web no influye significativamente en el gasto, por lo que si se deseara se podría prescindir de esta variable para un ajuste del modelo.

Conclusiones generales

El modelo tiene un muy buen ajuste con un R2=98.43%, lesto quiere decir que el modelo explica la mayor parte de la variabilidad en el gasto anual de los clientes. Es importante considerar que las variables más importantes son TimeonApp y LengthofMembership, mientras que la variable TimeonWebsite tiene una relación casi insignificante con los gastos anuales, lo que sugiere que su impacto es mínimo. Además se cumplen todos los supuestos de regresión lineal (ausencia de multicolinealidad, normalidad, homocedasticidad y linealidad).

Para una mejor interpretación de los datos sería interesante poder validar información adicional, sin embargo, se debe considerar que el tiempo en la app tiene el mayor impacto en el gasto anual, es crucial invertir en mejoras para aumentar la interacción de los clientes y por alguna razón es inferior al tiempo invertido en la web, puede ser por un tema de usabilidad ya que la app puede ser más intuitiva, funcionalidades afines a los objetivos de los usuarios, disponibilidad fácil y segura dentro de una app, recordando su potencial uso, u otra. Es relevante considerar que la duración de la membresía está altamente correlacionada con el gasto anual, diseñar programas de fidelización y beneficios para miembros antiguos podría aumentar los ingresos y segmentar a los clientes según la duración de sus sesiones y membresía para diseñar estrategias de marketing específicas. Por ultimo, el análisis matemático de los coeficientes (usando matrices) coincide con los valores obtenidos en el modelo ajustado con lm(), lo que valida los resultados computacionales, confirmando que el modelo está correctamente especificado.